Du corpus au dictionnaire

نویسندگان

  • Bernard Jacquemin
  • Sabine Ploux
چکیده

In this article, we propose an automatic process to build multi-lingual lexico-semantic resources. The goal of these resources is to browse semantically textual information contained in texts of different languages. This method uses a mathematical model called Atlas sémantiques in order to represent the different senses of each word. It uses the linguistic relations Cahiers de Linguistique, 33(1), pp. 63–84. 1 Bernard Jacquemin et Sabine Ploux (2008). Du corpus au dictionnaire between words to create graphs that are projected into a semantic space. These projections constitute semantic maps that denote the sense trends of each given word. This model is fed with syntactic relations between words extracted from a corpus. Therefore, the lexico-semantic resource produced describes all the words and all their meanings observed in the corpus. The sense trends are expressed by syntactic contexts, typical for a given meaning. The link between each sense trend and the utterances used to build the sense trend are also stored in an index. Thus all the instances of a word in a particular sense are linked and can be browsed easily. And by using several corpora of different languages, several resources are built that correspond with each other through languages. It makes it possible to browse information through languages thanks to syntactic contexts translations (even if some of them are partial).

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

A Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]

Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...

متن کامل

Etude et Evaluation de la Di-Syllabe comme Unité Acoustique pour le Système de Synthèse Arabe PARADIS

L’étude que nous présentons dans cet article s’inscrit dans le cadre de la réalisation d’un système de synthèse de la parole à partir du texte pour la langue arabe. Notre système PARADIS est basé sur la concaténation des di-syllabes avec TD-PSOLA comme technique de synthèse. Nous présentons dans cet article l’intérêt du choix de la di-syllabe comme unité de concaténation pour le synthétiseur et...

متن کامل

Adaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]

RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...

متن کامل

Les Triggers Inter-langues pour la Traduction Automatique Statistique. (Inter-lingual Triggers for Statistical Machine Translation)

Dans cet article, nous décrivons le concept de triggers inter-langues. Nous expliquons ensuite comment nous avons utilisé de tels triggers pour construire automatiquement un dictionnaire bilingue. Nous avons par la suite évalué notre dictionnaire bilingue en le comparant à deux dictionnaires existants, le premier fourni par ELRA et le second en libre accès sur Internet. Cependant, afin de rendr...

متن کامل

Exploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale

RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • CoRR

دوره abs/0901.3990  شماره 

صفحات  -

تاریخ انتشار 2009